### Комментарий от ревьюера v_1 Олеся, отличный проект, но следующие моменты надо доработать 1. Расчет удаленных значений после фильтрации по времени 2. Расчет доли пользователей, переходящих на следующий шаг воронки 3. Шаг проверки гипотез Подробные комментарии по ходу работы Желтые комментарии-рекомендации на твое усмотрение. Если есть вопросы ко мне, можешь оставить их в отдельном комментарии
### Комментарий от ревьюера v_2 Олеся, привет! Отлично, все критичные комментарии отработаны! У тебя получился отличный проект, успеха в дальнейшем обучении! Если есть желание поглубже познакомиться со статистикой, тервером и аб тестами (при этом глубоко не погружаясь в математические дебри) рекомендую посмотреть цикл лекций Глеба Михайлова (возможно он наставник у тебя) https://www.youtube.com/playlist?list=PLQJ7ptkRY-xbHLLI66KdscKp_FJt0FsIi И отличная статья про структуры данных в пандас http://datalytics.ru/all/uglublennoe-izuchenie-pandas-struktury-dannyh/

Мы работаем в стартапе, который продаёт продукты питания. Нужно разобраться, как ведут себя пользователи нашего мобильного приложения.

Предстоит изучить воронку продаж. Узнать, как пользователи доходят до покупки. Сколько пользователей доходит до покупки, а сколько — «застревает» на предыдущих шагах? На каких именно?

После этого исследуем результаты A/A/B-эксперимента. Дизайнеры захотели поменять шрифты во всём приложении, а менеджеры испугались, что пользователям будет непривычно. Договорились принять решение по результатам A/A/B-теста. Пользователей разбили на 3 группы: 2 контрольные со старыми шрифтами и одну экспериментальную — с новыми. Выясним, какой шрифт лучше.

Описание предоставленных нам для исследования данных:

Каждая запись в логе — это действие пользователя, или событие.

EventName — название события;

DeviceIDHash — уникальный идентификатор пользователя;

EventTimestamp — время события;

ExpId — номер эксперимента: 246 и 247 — контрольные группы, а 248 — экспериментальная.

Наше исследование мы разобьем на 5 шагов, в ходе которых, изучим и проверим данные, сделае выводы, по полученным результатам.

### Комментарий от ревьюера v_1 Отлично Молодец, что в начале проекте знакомишь с ним, так работа приобретает структуру и лучше воспринимается. Также стоит дать название проекту, шаги исследование обозначать заголовками, так они попадут в оглавление в плагине ток, а оттуда его можно перенести в сам проект, установив галочку "Add Notebook Toc Cell"

ШАГ 1

Откроем файл и изучим общую информацию.

### Комментарий от ревьюера v_1 Отлично Отлично, библиотеки импортированы в начале тетрадки, в отдельной ячейке.

Нам предоставлен файл, содержащий 4 столбца и 244126 строк. Данные без пропусков.

ШАГ 2 ПОДГОТОВКА ДАННЫХ

### Комментарий от ревьюера v_1 Здесь все верно, но рекомендую переименовывать колонки явно, методом rename. Так обезопасишь себя от случайной ошибки

413 дубликатов составляют 0.169% от всех наших данных. Не будет существенным их удаление из дальнейшего нашего исследования.

### Комментарий от ревьюера v_1 Рекомендация При удалении дубликатов (и вообще при удалении строк из датафрейма) следует обновлять индексы

Комментарий от ревьюера v_1

Отлично

С подготовкой все ОК, но рекомендую завернуть базовые проверки в функцию и использовать ее и в следующих проектах, и в целом при дальнейшей работы с данными